Pixel-TTS: Síntesis de voz robusta mediante texto como imagen
Descubre Pixel-TTS, el primer modelo de texto a voz que trata el texto como imagen para mejorar robustez, convergencia rápida y generalización zero-shot.
Descubre Pixel-TTS, el primer modelo de texto a voz que trata el texto como imagen para mejorar robustez, convergencia rápida y generalización zero-shot.
Descubre SAGA, un framework que usa MLLM congelados para entrenar codificadores visuales con supervisión de atributos, mejorando el recall en hasta 6 puntos en